AI와 ML
AI, ML, DL의 정의
정의
AI(Artificial Intelligence)
- 컴퓨터 시스템이 스스로 특정 작업·행동을 수행할 수 있는 능력
- 주어진 환경/데이터를 인지,학습,추론을 통해 목표 달성을 하도록 예측,행동 선택,계획하는 시스템
ML(Machine Learning)
- 명시적 명령 없이 알고리즘·통계 모델로 학습하는 능력
- AI 범주 내에서 데이터로부터 학습하여 목적을 달성하는 접근 방법론
- ex) 생성형 AI, 언어 모델, 이미지 분류 모델, 추천 시스템
DL(Deep Learning)
- ML 범주 내에서 신경망(Neural Network) 함수를 사용한 학습 방법론
AI - ML(ML이 아닌 AI시스템)의 예
- 규칙 기반 시스템
- 휴리스틱 기반 (최적화)알고리즘
데이터와 학습의 이해
데이터 구성요소(Feature/Label)
데이터가 왜 중요한가?
- 머신러닝은 규칙을 직접 코딩x -> 데이터에서 규칙을 학습
- 데이터(Feature, Label)의 분포와 관계가 머신러닝의 학습 결과를 결정
Feature(피처, 특성)
- 모델이 예측에 사용하는 입력정보
- 예측, 판단의 근거/단서
Label(라벨, 목표값)
- 모델이 예측하려는 정답
- 학습의 목표값
ML 실생활 예시
- 일단 보류
단일 피쳐 기반 학습
1D 피쳐 기반 학습
1D 피쳐 기반 학습(단일 피쳐 학습)는 무엇인가?
- 1D = 1차원
- Feature가 하나일 때 머신러닝이 학습하는 가장 단순한 형태
단일 피쳐 기반 학습
3-1. 1D 피쳐 기반 학습
-
1D 피쳐 기반 학습(단일 피쳐 학습)이란?
-
1D = 1차원
-
Feature가 하나일 때 머신러닝이 학습하는 가장 단순한 형태
-
수식:
-
데이터셋
: 30명의 Years of Education (피쳐)와 Income (라벨) 쌍 ( ) -
미지의 함수 (
): Feature와 Label 사이의 실제 평균 관계로, 직접 관측할 수는 없으며 오차가 포함된 데이터(점)만 관측 가능함 -
측정오차 (
): 측정 기기의 한계나 환경적 요인 등으로 발생하며 데이터에 주로 섞여 있음 (데이터 = 참 함수 + 오차)
-
-
피쳐와 라벨의 관계를 잘 나타낸 함수
는 무엇일까? -
데이터를 설명하는 여러 함수 후보가 존재
-
어떤 함수가 가장 잘 맞는지 학습해야 함
-
3-2. 모델과 가설 공간
-
학습 (Learning)
-
"입력(Feature)
출력(Label)" 관계를 찾는 과정 -
평균 관계를 하나의 함수로 표현하지만, 관계를 표현할 수 있는 함수는 무수히 많음
-
-
가설 공간 (Hypothesis Space)
-
관계를 표현할 수 있는 모든 후보 함수들의 모음
-
피쳐 공간과 라벨 공간 위에서 정의된 함수들의 집합
(예: 선형함수 가설공간, 비선형함수 가설공간)
-
-
모델 (Model)
- 가설공간
에 속한 특정 함수
- 가설공간
3-3. 학습이란
-
학습의 정의
-
주어진 데이터에서 정답을 가장 잘 맞출 수 있도록 모델의 규칙을 조금씩 조정해가는 과정
-
데이터
가설공간 선택된 모델
-
-
학습에 필요한 3가지
-
데이터 (Data): 학습할 예시들 (입력과 정답 쌍으로 된 정답 모음)
-
가설 공간 (Hypothesis Space): 선택할 수 있는 모든 후보 함수들의 집합 ("이 중에서 가장 좋은 함수를 찾아야 해")
-
선택 기준 (손실 함수): 어떤 함수가 더 좋은지 판단하는 척도 (예측값과 실제값의 차이를 측정)
-
-
학습 과정
-
가설공간에서 하나의 함수를 선택
-
그 함수로 데이터의 모든 예시를 예측
-
손실함수로 틀린 정도 계산
-
더 적게 틀리도록 함수의 파라미터 조정
-
반복하여 최적의 모델 완성
-
복수 피쳐 기반 학습
4-1. 2D 피쳐 기반 학습
-
수식:
-
파란색 Surface(미지의 참 함수
): 입력과 출력을 이어주는 숨겨진 진짜 함수로 관측 불가능함 -
빨간색 점들(데이터): 실제 데이터로 관측 가능함
4-2. 일반적 용어 정리 및 모델 가정
-
수식 일반화:
-
: 우리가 예측하려는 라벨(반응/목표) 변수 -
, , : 각각 첫번째, 두번째, 번째 피쳐(입력/예측) 변수 -
: 일반적인 차원 피쳐(총 개의 피쳐) 벡터 ( ) -
: 모델 (함수형). -
: 측정오차. 피쳐 와 독립이며 기댓값 으로 가정함
4-3. 왜 를 학습하는가?
-
예측: 잘 학습된
가 있으면, 새로운 입력 에서 반응/목표 를 예측할 수 있음 -
중요 특성 파악: 피쳐들
중 어떤 특성이 를 설명하는 데 중요하고, 어떤 것은 덜 중요(무관)한지 파악 가능 (예: 소득 예측 시 근속 연수와 교육 연수는 큰 영향을 주지만, 혼인 여부는 거의 영향이 없을 것임) -
해석 가능성:
의 복잡도에 따라 각 구성요소 가 에 어떻게 영향을 미치는지(증가/감소 방향, 민감도 등) 이해할 수 있음